▋前言
在過去幾天,我們對 AMI、Switchboard、IEMOCAP 三個資料集做了資料探勘。今天,我們要把這些經驗整合起來,形成一個「資料 → 前處理 → 模型訓練 → 應用」的完整流程,並比較它們的互補性。
▋內容
資料到 AI 的典型流程
資料探勘 (EDA)
確認資料品質、長度、分布。
避免浪費時間在錯誤或低品質資料上。
資料清理與前處理
AMI:長會議 → 需要分段處理;高比例重疊語音。
Switchboard:口語化嚴重 → 需處理 disfluency、語助詞。
IEMOCAP:情緒標籤不均衡 → 需平衡資料分布。
特徵提取 (Feature Extraction)
使用 Mel-Spectrogram、MFCC 或 Wav2Vec embedding。
針對情緒 (IEMOCAP) 還需 prosody 特徵。
模型訓練或推論
STT:Whisper(對比 Wav2Vec)。
Speaker Diarization:NeMo + clustering。
Speaker Recognition:Pyannote (X-vector)。
SER:SpeechBrain + IEMOCAP。
評估與迭代
WER (Word Error Rate):STT。
DER (Diarization Error Rate):AMI、Switchboard。
Emotion Accuracy:IEMOCAP。
應用與落地
教師:獲得逐字稿 + 學生情緒曲線。
學生:回顧課程、檢視學習情緒。
平台:量化課程品質,提升差異化服務。
三個資料集的互補性
AMI:強調「多人會議」與重疊語音,檢驗系統在高難度場景下的穩健性。
Switchboard:聚焦「雙人自然對話」,驗證系統在日常口語、disfluency 下的適應能力。
IEMOCAP:專注「情緒辨識」,補足前兩者缺乏的情緒標註,讓系統能提供課堂氛圍分析。
結論
這三個資料集相輔相成,讓我們能從 語音準確率 → 語者辨識 → 情緒分析 全面驗證 AI 系統的效能。
▋下回預告
接下來,我們會深入討論 模型實驗設計,例如如何設定 baseline、如何挑選評估指標。
▋參考資料